论文解读:ProteinBERT: a universal deep |
您所在的位置:网站首页 › 蛋白质 transformer › 论文解读:ProteinBERT: a universal deep |
目录
1. 研究背景2. 研究数据2.1 预训练的蛋白质数据集2.2 蛋白质基准数据集
3. 研究方法3.1 序列和标注编码3.2 蛋白质序列和注释的自我监督预训练3.3 对蛋白质基准进行监督微调3.4 深度学习框架
4. 结果4.1 预训练可以改善蛋白质模型4.2 ProteinBERT在不同的蛋白质基准上达到了近乎最先进的结果4.4 全局注意力机制的理解
5. 结论
作者单位:耶路撒冷希伯来大学 发表期刊:《Bioinformatics》,2020年期刊影响因子:6.937 发表时间:2022年1月9日 数据和代码: https://github.com/nadavbra/protein_bert 1. 研究背景提出了一个基于自监督的ProteinBERT一个专门为蛋白质设计的深度语言模型。我们的预训练方案将语言建模与基因本体论(GO)注释预测结合起来。引入了新颖的建筑元素,使模型高效且灵活地适应长序列。ProteinBERT的体系结构由局部和全局表示组成,允许对这些类型的输入和输出进行端到端处理。ProteinBERT在涵盖多种蛋白质特性(包括蛋白质结构、翻译后修饰和生物物理属性)的多个基准上获得了接近最先进的性能,具有速度快,拟合速度好的优点。 2. 研究数据 2.1 预训练的蛋白质数据集ProteinBERT在106M蛋白上进行了预训练UniProtKB/UniRef90,UniRef90提供了一组非冗余的蛋白质簇,至少共享90%的序列一致性。每个簇由一个具有代表性的蛋白质表示,确保蛋白质空间的相对均匀覆盖。对于每个蛋白质,提取其氨基酸序列和相关的氧化石墨烯注释(根据UniProtKB)。我们只考虑了在UniRef90中出现至少100次的8943个最频繁的GO注释。在106M的UniRef90蛋白中,46M至少有8943个被考虑的注释中的一个(在46M蛋白中平均每个蛋白有2.3个注释)。 2.2 蛋白质基准数据集在9个基准数据集上对其进行了测试,包括蛋白质的功能、结构、翻译后修饰和生物物理特性(如下表所示)。这些基准中的标签要么是局部的(如翻译后修饰),要么是全局的(如远程同源性),它们要么是连续的(如蛋白质稳定性),要么是二元的(如信号肽),要么是分类的(如二级结构)。在局部基准中,训练样本的数量远远大于蛋白质序列的数量,因为目标标签是每个残基。 蛋白质序列被编码成整数记号序列。我们使用26个标记来代表20个标准氨基酸,硒半胱氨酸(U),一个未定义的氨基酸(X),另一个氨基酸(OTHER)和3个额外标记(START, END和PAD)。对于每个序列,分别在第一个氨基酸之前和最后一个氨基酸之后添加START和END标记。将PAD令牌添加到短于小批处理所选序列长度的PAD序列中。 ProteinBERT的体系结构(像大多数深度学习模型一样)规定了每个小批都有固定的序列长度。我们包括了START和END标记,以帮助模型解释长于所选序列长度的蛋白质。当编码一个超过所选序列长度的蛋白质时,我们选择该蛋白质的一个随机子序列,至少去掉它的两端之一。START或END令牌的缺失允许模型识别到它只接收到序列的一部分。 每个序列的GO注释被编码为固定大小的二进制向量(8943),其中除与该蛋白相关的GO注释对应的条目外,所有条目均为零。当没有向模型提供GO注释的信息时(例如: 在对基准进行调优和求值期间),向量将全部设置为零。 3.2 蛋白质序列和注释的自我监督预训练对蛋白质序列和从UniRef90中提取的GO注释进行了预处理。模型接收到损坏的输入(蛋白质序列和氧化石墨烯注释),必须恢复未损坏的数据。蛋白质序列的破坏采用5%概率随机替换令牌的方式进行(即保持原始令牌的95%概率,或用一个均匀选择的5%概率随机替换令牌)。对输入的GO注释进行破坏,随机去除现有的注释,概率为25%,并添加随机错误的注释,每个与蛋白质不相关的注释的概率为0.01%。对于50%的加工蛋白质,我们将所有的输入注释全部删除(即给出一个全零输入向量),以迫使模型仅从序列预测氧化石墨烯注释(就像所有测试基准的情况一样)。总之,所描述的预训练是一项双重任务,其中模型必须恢复蛋白质序列及其已知的GO注释。由于氧化石墨烯术语涵盖了广泛的功能,后一项任务与蛋白质研究的许多领域相关。 3.3 对蛋白质基准进行监督微调对于所有基准,ProteinBERT都从相同的预训练状态初始化,并通过相同的协议进行微调。最初,预训练模型的所有层都被冻结,只有新添加的完全连接的层被允许训练40个epoch。接下来,我们解冻所有的图层,并训练模型达到40个额外的时代。最后,我们为一个更大序列长度的最后epoch训练模型,在所有时期,我们在平台上降低了学习速率,并基于独立的验证集应用了早期停止。模型评估,然后在一个保留的测试集上执行。在整个调优和基准测试评估过程中,没有利用GO注释的信息(即GO注释输入始终是一个常量的全零向量)。在单个GPU上,整个微调过程花费了14分钟。 3.4 深度学习框架roteinBERT的架构是不同的,包括几个创新。ProteinBERT是一种去噪自动编码器(下图所示)。ProteinBERT的两个输入(和输出)分别是(i)蛋白质序列(编码为氨基酸标记序列)和(ii) GO注释(编码为固定大小的二进制向量)。 在106M UniRef90记录上进行了6.4个epoch的预训练,改变用于编码输入和输出蛋白序列的序列长度(128、512或1024个记号)。我们观察到128令牌编码的性能较低,但512和1024的性能类似。 使用了九个涵盖蛋白质研究中各种任务的基准(下表所示)。对于来自TAPE的四个基准(二级结构、远程同源性、荧光和稳定性预测),我们将我们的性能与其他最先进的序列模型进行了比较,这些模型在相同的基准和相同的指标下进行了评估。 为了进一步了解预训练对下游基准性能的影响,根据不同的预训练时间评估了ProteinBERT。具体来说,我们从预训练过程中的不同快照启动模型,并在从这些状态进行微调后评估其下游性能(图3)。虽然一些任务不能从预训练中受益,但其他任务(如二级结构和远程同源性)显示出从越来越多的预训练中获得的明显收益,并没有在改善中显示出饱和。 为了证明整体注意机制的内部工作原理,我们从信号肽基准的测试集中选取了两个不相关的蛋白质,提取了蛋白bert中的24个注意头值,在对该任务的模型进行微调之前和之后(图5)。不同蛋白质之间的整体注意力模式明显不同,但也存在一些共同的模式。 提出了一种新的蛋白质序列深度语言模型ProteinBERT,旨在以一种自然的方式捕获蛋白质的局部和全局表示。我们已经证明了该模型的普遍性。表明它可以在几分钟内对各种各样的蛋白质任务进行微调,并达到接近最先进的结果。尽管一些较大的蛋白质语言模型[如ProtT5 ]在至少一些测量任务上显示出更好的性能,这些模型要大得多,在预训练和推理过程中涉及的计算量和内存都要大几个数量级。 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |